EMNLP 2025 接收!把“猜-思-答”三步走做成大模型训练新范式
大模型的后训练阶段,很多人都纠结一个问题:到底是用监督微调(SFT),还是强化学习(RL)?SFT 简单高效,但能力上限不高;RL 能力强,但训练又慢又不稳。尤其是在文本分类这个场景,RL 表现一直不如人意。
大模型的后训练阶段,很多人都纠结一个问题:到底是用监督微调(SFT),还是强化学习(RL)?SFT 简单高效,但能力上限不高;RL 能力强,但训练又慢又不稳。尤其是在文本分类这个场景,RL 表现一直不如人意。
日前,中国人民大学高瓴人工智能学院赵鑫教授团队与九章云极DataCanvas公司联合完成的4篇论文成功入选ACL和EMNLP两大顶级学术会议。这一系列研究成果的入选,标志着九章云极在算法与普惠算力技术领域的研究成果获得了国际学术界的广泛认可。
随着 AI 技术的飞速发展,从「快思考」到 「慢思考」,大语言模型(LLMs)在处理复杂推理任务上展现出惊人的能力。无论是我们熟知的思维链(CoT),还是更复杂的深度思考模式(Thinking),都让 AI 的回答日益精准、可靠。
推理 cot emnlp lightthinker 方法li 2025-08-28 14:18 6
在全球人工智能技术激烈竞争、大模型加速赋能产业的关键阶段,高效微调技术成为推动落地的核心突破口。近日,奇富科技在大模型高效参数微调领域的最新研究成果PrAd: Prompt Adaptive Tuning for Decoder-only Language M